home *** CD-ROM | disk | FTP | other *** search
/ NetNews Offline 2 / NetNews Offline Volume 2.iso / news / comp / lang / c-part2 / 15100 < prev    next >
Encoding:
Internet Message Format  |  1996-08-05  |  954 b 

  1. Path: news.flashnet.it!usenet
  2. From: in target <intarget@flashnet.it>
  3. Newsgroups: comp.misc,comp.unix.programmer,comp.lang.c,comp.programming
  4. Subject: Full Text Search Algorithms
  5. Date: Tue, 16 Apr 1996 18:03:42 -0700
  6. Organization: In Target
  7. Message-ID: <3174436E.1A36@flashnet.it>
  8. NNTP-Posting-Host: ppp-029.flashnet.it
  9. Mime-Version: 1.0
  10. Content-Type: text/plain; charset=us-ascii
  11. Content-Transfer-Encoding: 7bit
  12. X-Mailer: Mozilla 2.01 (Win16; I)
  13.  
  14. I need to build a full text search engine which can handle a large amount
  15. of documents (about 300,000 plain text documents 3Kbytes long).
  16. I tried with by implementing inverted lists of words with BTrees indexes, 
  17. but the resulting software becomes too slow after the first 20,000 
  18. documents. In addition, there's too much wasted space in the indexes.
  19.  
  20. Can anybody suggest me a better algorithm and, if possible, tell me where 
  21. can I find a technical description of it (possibly on the NET)?
  22.  
  23. Thanks for all
  24.